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摘 要 : 针对 传统 协同 过 滤 算 法 中 存在 数据 稀疏 


基于 用 户 和 基于 项 目的 协同 过 


， 提 出 融合 协同 过 
分 以 及 用 户 和 项 目 自身 特征 ， ee 


选 出 用 户 和 项 目 最 


最 近邻 集合 ， 


寺 泪 的 线性 回归 推荐 算法 。 根 据 用 户 对 项 目的 评 


分 别 通 过 


寺 泪 算法 来 预测 用 户 已 评分 项 目的 评分 ， 将 预测 评分 与 真实 评分 的 差 值 作为 特征 ， 组 合 在 


一 起 生成 新 的 训练 数据 。 把 新 的 训 ee 线性 回归 模型 的 输入 ， 根 据 训 练 好 的 模型 预测 未 知 评分 ， 采 用 Top-N 算 
法 产生 推荐 列表 。 在 MovieLens 数据 集 上 进行 实验 。 实 验 结 果 表 明 ， 新 算法 的 推荐 准确 性 较 传 统 协同 过 滤 算 法 有 显著 
提高 。 
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Linear regression recommendation algorithm with collaborative filtering 
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(College of Computer Science & Engineering, Changchun University of Technology, Changchun 130012, China) 


Abstract: This paper proposed a linear regression algorithm to integrate collaborative filtering based on the data sparse influence 


of the traditional collaborative filtering algorithm. Firstly, it built a similarity matrix between the user and the project based on 


the user's rating of the project, as well as the user and the project's own characteristics. Secondly, based on the similarity matrix, 


it selected the user and project nearest neighbor set. It 


predicted the score that the users had graded respectively by the way of 


collaborative filtering algorithms based on the user and the project. And it would take the difference between predicted scores 


and the real scores as features to generate new training data, and regard the new training data as the input of the linear regression 


model. Finally, according to the training model, it could predict the unknown score , and used the Top-N algorithm to generate 


the recommended list. It conducted the experiment on the MovieLens data set. The experimental result shows that the proposed 


accuracy of the new algorithm improves compared with the traditional collaborative filtering algorithm. 
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0 引言 法 。 基 于 用 户 的 协同 过 滤 算 法 给 用 户 推荐 与 其 兴趣 相似 的 其 他 
用 户 感 兴趣 的 项 目 ， 基 于 项 目的 协同 过 滤 算 法 给 用 户 推 荐 与 其 

随 着 互联 网 技术 的 飞速 发 展 ， 各 类 信息 瞬间 暴 增 ， 导 致 严 之 前 感 兴趣 的 项 目 相似 的 项 目 嫩 。 这 两 种 传统 协同 过 滤 算 法 都 
重 的 “信息 过 载 ” 问 题目 。 一 方面 ， 从 用 户 的 角度 来 看 ， 从 海量 是 先 根 据 用 户 对 项 目的 评分 计算 用 户 或 项 目 之 间 的 相似 性 ， 然 
的 数据 中 获取 自己 感 兴 趣 的 信息 变 的 越 来 越 困 难 ， 另 一 方面 ， 后 找 出 用 户 或 项 目的 最 近邻 集合 ， 最 后 根据 Top-N 算法 产生 推 
从 服务 提供 商 的 角度 来 看 ,用 户 能 够 提供 的 有 效 信息 少 之 又 少 ， 荐 列表 进行 推荐 。 然 而 随 着 推荐 系统 中 用 户 和 项 目的 数量 不 断 
为 他 们 提供 个 性 化 的 需求 变 得 愈加 困难 。 推 荐 系统 喇 作 为 一 种 扩 增 ， 传 统 协同 过 滤 算 法 面临 着 扩展 性 、 数 据 稀 玻 等 问题 。 其 
言 息 过 滤 技 术 ， 在 解决 上 述 问题 中 起 到 了 举足轻重 的 作用 。 它 中 ， 数 据 扩展 性 指 随 着 数据 量 的 增加 ， 无 法 及 时 计算 出 相似 用 
根据 用 户 偏 好 向 用 户 推 荐 其 可 能 感 兴趣 的 项 目 (如 音乐 、 电 影 、 户 或 项 目 ， 导 致 推荐 延误 ， 数 据 稀疏 性 指 用 户 一 般 只 对 很 少 的 
图 书 等 ) 。 页 目 进行 评分 ， 数 据 量 越 大 ， 评 分 信息 显得 越 少 ， 相 似 性 计算 

目前 推荐 系统 应 用 最 广泛 的 技术 之 一 是 协同 过 滤 算法 B， 不 够 准确 ， 导 致 推荐 准确 度 降 低 。 

其 主要 分 为 基于 用 户 的 协同 过 滤 算 法 和 基于 项 目的 协同 过 滤 算 为 了 解决 上 述 问题 ， 文 献 [6~8] 通 过 和 矩阵 分 解 降低 维 数 ， 减 
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录用 稿 


少 存储 空间 ， 降 低 计算 复杂 度 ,以 解决 数据 扩展 性 问题 。 但 是 分 
课 算 法 不 仅 丢 失 原始 评分 信息 , 而且 还 容易 产生 过 拟 合 的 现象 。 
文献 [9~11] 采 用 聚 类 技术 , 对 用 户 或 项 目 进行 聚 类 , 缩小 相似 性 
范围 填充 评分 值 ， 一 定 程度 上 缓解 了 数据 稀 玻 性 问题 ， 但 是 忽 
略 了 用 户 兴 趣 的 差异 性 , 推荐 精度 难以 保证 。 文 献 [16] 通 过 统计 
用 户 或 物品 的 评分 频次 建立 线性 回归 模型 ， 进 而 利用 该 模型 对 


ES: 


inaXiv 合 作 期 十 
:nN Fy, 


根据 式 (4) 计 算出 所 有 未 对 项 目 i 评分 的 用 户 的 预测 评分 ， 
记 为 一 个 集合 C， 对 集合 C 按 降序 的 方式 排序 ， 最 后 把 排序 靠 
前 的 个 项 目 推荐 给 用 户 。 
1.2 ”线性 回归 算法 
线性 回归 0549 是 根据 给 定 的 一 系列 特征 ， 对 给 定 特征 和 实 
际 值 之 间 的 组 合 关系 进行 分 析 ， 并 通过 线性 组 合 的 方式 来 拟 合 


未 知 评分 直接 根据 历史 评分 频次 进行 预测 。 本 文 提出 一 种 融合 
协同 过 滤 的 线性 回归 推荐 算法 (linear regression recommendation 
algorithm with collaborative filtering，LRCF)。 首 先 ， 将 用 户 历史 评分 以 
及 用 户 和 项 目 自身 特征 融入 到 相似 性 计算 中 ， 根 据 相 似 性 矩阵 


be 


真实 值 。 模 型 表示 形式 如 式 〈5) 所 示 。 


CD = On=0x (5) 
i=l 


其 中 : m 表示 特征 个 数 ; 有 h(x) 表示 预测 值 ，07 表示 参数 向 量 ; 


选 出 最 近邻 集合 ， 其 次 ， 基 于 协同 过 滤 算 法 预测 用 户 已 评分 项 
目的 评分 ,通过 预测 评分 与 真实 评分 的 差 值 建立 线性 回归 模型 ， 
最 后 ， 根 据 该 模型 预测 未 知 评分 ， 从 整体 上 提高 用 户 预 测评 分 
的 准确 性 。 


型 


1 ”相关 工作 
1.1 协同 过 滤 算 法 
协同 过 滤 算 法 的 中 心思 想 是 在 整个 空间 寻找 用 户 或 项 目的 


前 个 最 近邻 ,核心 是 计算 相似 性 。 相 似 性 计算 的 常用 方法 有 
余弦 相似 性 "9、 修 正 的 余弦 相似 性 I、 皮 尔 逊 相关 系数 [等 。 
以 基于 项 目的 协同 过 滤 算 法 为 例 ， 分 别 介绍 三 种 相似 性 的 计算 
公式 、 预 测评 分 公式 以 及 top-N 算法 推荐 。 

余弦 相似 性 计算 公式 为 


(D) 


Sim(i, j) = 


x 表示 特征 向 量 。 预 测 值 与 真实 值 之 间 存 在 一 定 的 误差 ， 这 个 
误差 服从 高 斯 分 布 ， 最 终 误差 损失 函数 表示 形式 如 下 : 


10=3D 0) -yy (6) 


其 中 : 7(6) 表示 误差 平方 和 ;yw 表示 真实 值 。 利 用 梯度 下 降 
法 优化 求解 J(9) ， 求 1(9) 对 参数 0 的 侦 导 ， 然 后 利用 式 (7) 进 
代 更 新 参数 0 ,直到 达到 最 大 迭代 次 数 ， 求 得 参数 0 。 


O00 =00 -a hx) yo) 0 
让 1 


其 中 :99 表示 特征 向 量 xo 的 第 j 个 参数 ， a 表示 学 习 率 ; x” 


J 


表示 特征 向 量 xo 的 第 j 个 值 。 


2 ”融合 协同 过 滤 的 线性 回归 推荐 算法 构建 


2.1 问题 定义 


其 中 : 六 了 分 别 表示 整个 项 目 空间 的 两 个 项 
让 了 评分 过 的 用 户 集合 ; Ri 表示 用 户 wu 对 项 
示 用 户 wu 对 项 目 j 的 评分 。 

多 正 的 余弦 相似 性 计算 公式 为 


; 7 表示 对 项 
i 的 评分 ; Ruwji 表 


Ds Rs RR -BR) 


Sim(i, j) = @) 
本 本 (R,, RK, ) 人 (R,, 是 有 
其 中 : R, 表示 用 户 w 对 已 评分 项 目的 平均 评分 。 
皮尔 逊 相关 系数 计算 公式 为 
, (Rs — RR,,—R)) 
Sim(i, j) = > | @) 
其 中 : Diy 表示 对 项 目 i 和 /7 共同 评分 过 的 所 有 用 户 集合 ; 玉 表 
示 对 项 目 i 的 平均 评分 ; R 表示 对 项 目 7 的 平均 评分 。 
预测 评分 公式 为 
A el (4) 


2 | sim 

在 所 有 项 目 中 寻找 与 目标 项 目 i 相似 性 最 高 的 前 个 项 目 
目的 最 近邻 工 = 全 汉 … 汉 } 。 在 最 近邻 工 确定 以 后 ， 预 
测 用 户 对 未 评分 项 目 i 的 评分 ， 如 式 (4) 所 示 。 


为 了 更 好 地 描述 本 文 提出 的 算法 ， 现 对 用 户 集合 、 项 目 集 
合 、 用 户 特征 和 矩阵、 项目 特征 矩阵 以 及 用 户 一 项 目 评分 矩阵 进 
行 符号 化 定义 。 

定义 1 忆 表 示 用 户 集合 ， 形 式 如 下 : 


U = {W ,WU,..., ,,} 
其 中 : un 表示 第 m 个 用 户 。 
定义 2 了 表示 项 目 集合 ， 形 式 如 下 : 
T={h,b.t,) 
其 中 : 记 表 示 第 n 个 项 目 。 
定义 3 UFeature 表示 用 户 特征 矩阵 ， 


式 如 下 : 


户 万 有 有 fe fp 

Ul ufi1 uf1.2 uf13 i ufip 
U2 uf2.1 zj zj; 可 Upv 
Um Ufn,1 Ufm?2 Ufim3 人 Ufmp 


其 中 : uf,p 表 示 用 户 ww 的 第 p 个 特征 。 
定义 4 IFeature 表示 项 目 特 征 和 矩阵 ， 形 式 如 下 : 


项 万 万 有 证 fp 
i ifi1 ifi2 ifi3 i ifig 
i ifz1 if22 ifp3 ifza 
in ifi,1 if,? if,3 a ifug 
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其 中 : ifi,q 表示 项 目 i 的 第 g 个 特征 。 X={%, 回 }， 最 后 一 列 作为 样本 标签 Y={y,,}。 

定义 5 R 表示 用 户 -项 目 评分 矩阵 ， 形 式 如 下 : b) 根 据 式 (5)(6) 建 立 线性 回归 模型 ,利用 梯度 下 降 法 优化 求 

户 类 i2 13 a 妃 解 下 边 损 失 函数 J(O) ， J(O) = 二 人 —y,,) 。 

Ul R11 R12 R13 st Rn 

要 二 Re 家 c) 求 损失 函数 1(9) 对 参数 0 的 偏 导 , 然后 利用 式 (7) 达 代 更 

新 参数 g ， 直 到 达到 最 大 迭代 次 数 ， 将 求 得 的 参数 g ， 带 入 式 

于 Ri Roz Ros . Ro (5)， 得 到 LRCF 模型 。 

gd) 根据 LRCF 预测 目标 用 户 x 对 未 评分 项 目的 评分 ， 使 用 
其 中 : Rn 表示 用 户 wm 对 项 目的 评分 值 。 top-N 算法 生成 推荐 列表 。 
2.2 算法 构建 
算法 构建 分 为 生成 训练 数据 集 和 产生 推荐 列表 两 个 阶段 。 三 于 征 写 陡 CKFeature， 
二 时 吕 目 特 征 矩 阵 IFeature， 

阶段 1: 生成 训练 数据 集 , 流程 如 图 1 所 示 。 输入 、 输 出 、 用 户 _ 项 目 评分 矩阵 及 
算法 步骤 如 下 : 

输入 : 预 处理 后 的 用 户 特征 和 矩阵 UFeature, 预 处 理 后 的 项 用 广 相似 矩阵 wsim 

目 相 似 和 矩阵 isim 
特征 矩阵 IFeature， 用 户 一 项 目 评分 矩阵 RR， 用 户 集 合 U， 项 
Dh 遍历 R， 分 别 基于 用 户 、 项 目 协同 过 滤 算 法 
2 输出 :训练 数据 。 预测 用 户 x 对 的 评 FE pr io 将 pi 
TT 与 Rj 差 值 、 ;与 ,; 差 值 、R,, 作 为 新 特征 
算法 步骤 ; 组 合 合 在 二 起 起 多 成 新 数据 集 daxia， 


即 data = {x¥, xi,Rui} 


引 在 RR 中 找 出 用 户 nw 已 评分 的 项 目 集 
1={iliel,R,,z#@} 和 对 项 目 i 评分 过 的 用 户 集 
U,={u|ueU,R, ,OG}. 


np 


图 1 生成 训练 数据 流程 


pb 根据 7 、U, 分 别 生 成 两 两 项 目 对 集合 
ipairs={<isi>iiel} 和 用 户 对 集 合 函数 ， 计 算 损失 函数 对 
的 偏 导数 


upairs ={<u,,u, > uu, EU,}o 

9 对 于 ipairs 中 的 每 一 对 <i, 记 > 在 IFeature 中 找 出 i 和 i 
对 应 的 行 , 利用 式 (2) 计 算 相 似 性 sim(i,,i) ;同样 的 方式 利用 式 (3) 设置 误差 阐 值 ， 学 习 率 
计算 wpairs 中 每 一 对 <u,w > 的 相似 性 sim(w,u,)。 

dj) 循环 执行 a)b)c), 得 到 每 个 用 户 和 每 个 项 目的 相似 性 ， 分 
别 构建 用 户 相似 性 矩阵 jsim(m,m) 和 项 目 相似 性 矩阵 isim(n,n) 。 

9) 在 R 上 计算 每 一 个 用 户 在 ysim 的 相似 性 , 取 相 似 性 最 高 
的 前 个 用 户 构 成 用 户 最 近邻 集合 N ={ {0,w,.…,W}|u eusim} 
保存 ， 同 理 ， 计 算 每 一 个 项 目 在 isim 的 相似 性 ， 取 相似 性 最 
高 的 前 个 项 目 构成 项 目 最 近邻 集合 N={ {i,b,..i}|ieisim} 


更 新 参数 


得 到 参数 ， 预 测 用 户 v 未 评分 项 
保存 。 使 用 top-N 产 生 推 荐 列表 


遍历 及， 选择 项 目 对 应 的 最 近邻 集合 N,， 根 据 式 (4) 计 
名 用 户 “对 项 目 ; 的 预测 评分 ,将 六., 与 ,的 差 信 记 为 
同 理 ， 选择 用 户 对 应 的 最 近邻 集合 N,， 类 比 式 (4) 计 算 用 户 4 
对 项 目 i 预测 评分 mr ， 将 六， 与 及 ,的 差 值 记 为 几 ， 最 后 将 。 3 。 实验 分 析 
xX、 汪 、R, 组 成 特征 ， 构造 新 的 数据 集 3.1 实验 数据 


1 2 wi 


data ={{ 台 ,Xi,R,i}|ielLueU,R,;eR} 并 保存 。 本 文采 用 的 实验 数据 是 由 GroupLens 提供 的 
阶段 2: 产生 推荐 列表 ， 流 程 如 图 2 所 示 。 输 入 、 输 出 、 MovieLens100k 数据 集 (11。 该 数据 集 提供 了 用 户 特征 数据 集 、 

算法 步 又 如 下 。 B 影 特征 数据 集 、 用 户 评分 数据 集 等 。 其 中 ， 用 户 特征 数据 集 
输入 : 训练 数据 ， 目 标 用户 w。 包含 943 条 记录 ， 每 一 条 记录 了 用 户 id、 年 龄 、 性 别 、 职 ， 
输出 : 目标 用 户 的 推荐 列表 。 g 编 ， 如 表 1 所 示 ; 电影 特征 数据 集 包含 1 682 条 记录 ， 每 一 
算法 步骤; 条 记录 了 电影 id、 电影 名 、 上 映 日 期 , IMDb 上 的 网 址 , 类别 ， 
a) 将 训练 数据 的 前 两 列 作 为 线性 回归 模型 的 输入 参数 ”如 表 2 所 示 ; 评分 数据 集 包 含 100 000 条 评分 记录 , 记录 了 943 
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个 用 户 对 1 682 部 电影 的 评分 , 每 个 用 户 至 少 对 20 部 电影 进行 
了 评分 ， 评 分 区 间 是 1~5， 数 值 大 小 代表 用 户 对 电影 的 喜爱 程 
度 。 评 分 数据 集 的 稀 朴 度 是 1-100000/943*1682 = 0.93695。 实 
验 数 据 集 的 各 项 基本 特征 如 表 3 所 示 。 实 验 中 将 数据 集 按 照 一 
定 比 例 划分 为 训练 集 和 测试 集 ， 其 中 80% 作 为 训练 集 ，20% 作 
为 测试 集 。 


| 户 特 征 示例 


用 户 id 1 2 
年 龄 24 53 
性 别 M F 
职业 technician other 
邮编 85711 94043 


2 项目 属性 示例 


电影 id 1 
电影 名 Toy Story 
上 映 日 期 01-Jan-1995 
http://us.imdb.com/M/title- 
IMDb 上 的 网 址 
exact?Toy%20Story%20(1995) 
类 别 Animation|Children's|Comedy 


表 3 实验 数据 统计 信息 


户 数目 (个 ) 943 
项 目 数目 (个 ) 1682 
评分 记录 数 ( 条 ) 100000 
户 最 大 评分 数 ( 条 ) 685 
户 最 小 评分 数 (条 ) 20 
用 户 平均 评分 (分 ) 3.52986 
稀 玻 度 (%0) 93.695% 


3.2 ”度量 标准 

本 实验 采用 目前 最 常 ) 
根 误差 (root mean square error，RMSE)。RMSE 的 值 越 小 ， 
质量 越 好 。RMSE 定义 如 下 : 


1 的 一 种 推荐 质量 度量 标准 ， 即 均 方 
推荐 


和 (R， 本 Pi (8) 
RMSE = 
N 
其 中 : N 表示 测试 集 评分 数据 个 数 ; R,, 测试 集 评 分 数据 集合 ; 


RR 用户 4 对 项 目 1 的 真实 打分 ，p, 用 户 u 对 项 目 i 的 预测 打 
分 。 
3.3 实验 结果 及 分 析 

考虑 各 个 参数 对 本 文 算法 的 影响 ， 本 节 先 通过 部 分 实验 找 
到 最 优 参数 的 设 定 ， 在 最 优 参数 确定 的 基础 上 对 本 文 算 法 和 传 
统 协同 过 滤 算 法 进行 比较 。 本 实验 的 用 户 相似 性 度量 方法 是 皮 
尔 逊 相关 系数 ， 项 目 相似 性 度量 方法 是 修正 的 余弦 相似 性 和 皮 
尔 逊 相关 系数 。 


入 作 基 二 
inaX ya Bl, 
1) 最 近邻 数 分 析 
考察 用 户 和 项 近邻 数 对 本 文 算法 (LRCF) 推 荐 精度 的 
影响 。 将 最 近邻 数 在 5~305 间 变 动 ， 固 定 学 习 率 w=0.01 。 如 图 
2 所 示 ， 随 着 用 户 最 近邻 数 k 值 的 增加 ，LRCF 的 RMSE 值 减 


小 ， 推 荐 准确 率 上 升 ， 用 户 最 近邻 数 k 取 275 时 ，LRCF 的 
RMSE 值 达 到 最 小 ， 随 后 再 增加 值 ，LRCF 的 RMSE 值 不 在 


发 生变 化 , 推荐 准确 率 保持 不 变 ; 如 图 3 所 示 ,k 值 在 5~25 间 ， 
LRCF 的 RMSE 的 值 一 直 在 减 小 ，k 值 在 25~55 间 ，RMSE 的 
值 一 直 在 增 大 ， 随 后 再 增加 值 ，LRCF 的 RMSE 的 值 一 直 在 
减 小 ， 推 荐 准确 率 上 升 ， 项 目 最 近邻 数 k 取 275 时 ，LRCF 的 
RMSE 值 达到 最 小 ， 随 后 再 增加 值 ，LRCF 的 RMSE 值 不 在 
发 生变 化 ， 推 荐 准确 率 保持 不 变 。 

2) 学 习 率 cw 分析 

考察 不 同学 习 率 w 对 本 文 算法 的 影响 。 将 学 习 率 & 在 
0.001~1 间 变 动 。 如 图 4 所 示 ， 学 习 率 w=0.1 时 ， 本 文 算法 的 


a 
让 
过 


RMSE 值 到 达 最 小 ， 随 后 再 增加 a 值 ， 本 文 算法 的 RMSE 值 不 
在 发 生变 化 。 
丸 此 ， 针 对 于 LRCF 分 别 设置 用 户 最 近邻 k=275、 项 目 最 


近邻 k=275、 学 习 率 w=0.1 进行 后 续 实 验 。 


不 同 K 值 下 均 方 根 误差 比较 


sp. 
0 50 100 150 200 250 300 
用 户 最 近邻 个 数 


图 2 用 户 最 近邻 数 k 对 于 均 方 根 误差 的 影响 


不 同 K 值 下 均 方 根 误差 比较 
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图 3 项 目 最 近邻 数 k 对 于 均 方 根 误差 的 影响 


3) 与 传统 协同 过 滤 算 法 比较 

将 本 文 算法 与 userCF、itemCF 作 比 较 。 如 图 5 所 示 ， 本 
文 提出 的 融合 协同 过 滤 的 线性 回归 推荐 算法 具有 最 小 的 RMSE， 
此 可 知 本 文 提出 的 推荐 算法 准确 性 较 传统 协同 过 滤 算 法 有 显 
著 提 高 


到 
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不 同学 习 率 a 下 均 方 根 误差 比较 
17.5 一 者 方 机 误差 


00 02 04 06 08 1.0 
学 习 率 a 


图 4 ”学习 率 a 对 于 均 方 根 误差 的 影响 


不 同 算法 RMSE 比 较 
434 0.33 userCF 
itemCF 
08 LRCF 
手 
吕 
04 
基 
02 
on werCF itemCF LRCF 
不 同 算法 
图 5 不 同 算法 对 于 均 方 根 误差 的 影响 
4 ”结束 语 


本 文 提 出 融合 协同 过 滤 的 线性 回归 推荐 算法 ， 通 过 用 户 
项 目 评分 矩阵 以 及 用 户 特征 和 项 目 属性 构建 相似 和 矩阵， 准确 计 
算 用 户 和 项 目的 最 近邻 集合 ， 有 效 克 服 了 因数 据 稀 玻 导致 推荐 
精度 不 高 的 问题 。 同 时 ， 将 传统 协同 过 滤 算 法 的 预测 已 知 评分 
与 真实 评分 的 差 值 作为 特征 ， 组 合 产生 新 的 数据 用 于 线性 回归 
模型 的 训练 ， 从 整体 上 提高 系统 预测 评分 的 准确 性 。 下 一 步 的 
工作 将 对 新 加 入 的 用 户 特征 和 项 目 属性 进行 分 析 ， 以 及 如 何 发 


现 并 解决 在 训练 过 程 中 产生 模型 过 拟 合 问 题 进行 研究 。 
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